我们提出了一种解决从脸部单个运动模糊图像的新观点渲染夏普视频的新颖任务。我们的方法通过隐式地通过三个大型数据集的联合训练来处理面部的几何和运动来处理面部模糊的复杂性:FFHQ和300VW,我们构建的新伯尔尼多视图DataSet(BMFD) 。前两个数据集提供了各种各样的面,并允许我们的模型更好地概括。 BMFD允许我们引入多视图约束,这对于从新的相机视图综合夏普视频至关重要。它由来自多个主题的多种视图的高帧速率同步视频组成,这些拍摄对象的多个观点显示了广泛的面部表情。我们使用高帧率视频通过平均来模拟现实运动模糊。感谢此数据集,我们训练一个神经网络,从单个图像和相应的面凝视中重建3D视频表示。然后,我们将相对于估计的凝视和模糊图像提供相机视点,作为对编码器解码器网络的输入,以生成具有新颖的相机视点的锐框的视频。我们在我们的多视图数据集和Vidtimit的测试对象上展示了我们的方法。
translated by 谷歌翻译
优化通常是一个确定性问题,其中通过诸如梯度下降的一些迭代过程找到解决方案。然而,当培训神经网络时,由于样本的子集的随机选择,损耗函数会超过(迭代)时间。该随机化将优化问题转变为随机级别。我们建议将损失视为关于一些参考最优参考的嘈杂观察。这种对损失的解释使我们能够采用卡尔曼滤波作为优化器,因为其递归制剂旨在估计来自嘈杂测量的未知参数。此外,我们表明,用于未知参数的演进的卡尔曼滤波器动力学模型可用于捕获高级方法的梯度动态,如动量和亚当。我们称之为该随机优化方法考拉,对于Kalman优化算法而言,具有损失适应性的缺陷。考拉是一种易于实现,可扩展,高效的方法来训练神经网络。我们提供了通过实验的收敛分析和显示,它产生了与跨多个神经网络架构和机器学习任务的现有技术优化算法的现有状态的参数估计,例如计算机视觉和语言建模。
translated by 谷歌翻译